Accurate path following is challenging for autonomous robots operating in uncertain environments. Adaptive and predictive control strategies are crucial for a nonlinear robotic system to achieve high-performance path following control. In this paper, we propose a novel learning-based predictive control scheme that couples a high-level model predictive path following controller (MPFC) with a low-level learning-based feedback linearization controller (LB-FBLC) for nonlinear systems under uncertain disturbances. The low-level LB-FBLC utilizes Gaussian Processes to learn the uncertain environmental disturbances online and tracks the reference state accurately with a probabilistic stability guarantee. Meanwhile, the high-level MPFC exploits the linearized system model augmented with a virtual linear path dynamics model to optimize the evolution of path reference targets, and provides the reference states and controls for the low-level LB-FBLC. Simulation results illustrate the effectiveness of the proposed control strategy on a quadrotor path following task under unknown wind disturbances.
translated by 谷歌翻译
Retrieval-augmented Neural Machine Translation models have been successful in many translation scenarios. Different from previous works that make use of mutually similar but redundant translation memories~(TMs), we propose a new retrieval-augmented NMT to model contrastively retrieved translation memories that are holistically similar to the source sentence while individually contrastive to each other providing maximal information gains in three phases. First, in TM retrieval phase, we adopt a contrastive retrieval algorithm to avoid redundancy and uninformativeness of similar translation pieces. Second, in memory encoding stage, given a set of TMs we propose a novel Hierarchical Group Attention module to gather both local context of each TM and global context of the whole TM set. Finally, in training phase, a Multi-TM contrastive learning objective is introduced to learn salient feature of each TM with respect to target sentence. Experimental results show that our framework obtains improvements over strong baselines on the benchmark datasets.
translated by 谷歌翻译
Large language models (LLMs) have been shown to be able to perform new tasks based on a few demonstrations or natural language instructions. While these capabilities have led to widespread adoption, most LLMs are developed by resource-rich organizations and are frequently kept from the public. As a step towards democratizing this powerful technology, we present BLOOM, a 176B-parameter open-access language model designed and built thanks to a collaboration of hundreds of researchers. BLOOM is a decoder-only Transformer language model that was trained on the ROOTS corpus, a dataset comprising hundreds of sources in 46 natural and 13 programming languages (59 in total). We find that BLOOM achieves competitive performance on a wide variety of benchmarks, with stronger results after undergoing multitask prompted finetuning. To facilitate future research and applications using LLMs, we publicly release our models and code under the Responsible AI License.
translated by 谷歌翻译
弱监督的视听暴力检测旨在区分包含带有视频级标签的多模式暴力事件的片段。许多先前的作品以早期或中间的方式执行视听整合和互动,但在弱监督的设置上忽略了模态异质性。在本文中,我们分析了多种实例学习(MIL)程序的模式异步和未分化的实例现象,并进一步研究了其对弱监督视听学习的负面影响。为了解决这些问题,我们提出了一种以自我验证(MACIL-SD)策略学习的方式感知的对比实例。具体而言,我们利用轻量级的两流网络来生成音频和视觉袋,其中单峰背景,暴力和普通实例以一种无监督的方式聚集到半袋中。然后,将音频和视觉剧烈的半袋表示作为正对组装,将暴力半袋与背景和正常实例相结合,以对比性负对。此外,将自我验证模块应用于将单峰视觉知识传输到视听模型,该模型减轻了噪音并缩小单峰和多模式特征之间的语义差距。实验表明,我们的框架在大规模XD-Violence数据集上的复杂性较低的方法优于先前的方法。结果还表明,我们提出的方法可以用作增强其他网络的插件模块。代码可在https://github.com/justinyuu/macil_sd上找到。
translated by 谷歌翻译
具有大尺度图像文本对的视觉预训练(VLP)在各个领域都表现出卓越的性能。但是,Internet上的图像文本对共存通常缺乏明确的对齐信息,这对于VLP来说是次优的。建议采用现成的对象检测器来利用其他图像标签信息。但是,对象检测器是耗时的,只能识别预定义的对象类别,从而限制了模型容量。受到观察的启发,即文本包含不完整的细粒图像信息,我们介绍了Ideas,该想法代表通过在线多标签识别VLP来增加文本多样性。想法表明,可以在VLP期间共同优化从文本中提取的图像标签的多标签学习。此外,想法可以在线识别有价值的图像标签,以提供更明确的文本监督。全面的实验表明,想法可以显着提高多个下游数据集上的性能,并具有较小的额外计算成本。
translated by 谷歌翻译
尽管事实证明,视听表征适用于许多下游任务,但舞蹈视频的表示,这是更具体的,并且总是伴随着具有复杂听觉内容的音乐,但仍然具有挑战性且没有评估。考虑到舞者和音乐节奏的节奏运动之间的内在结合,我们介绍了Mudar,这是一个新颖的音乐舞蹈表示学习框架,以明确和隐性的方式执行音乐和舞蹈节奏的同步。具体而言,我们根据音乐节奏分析启发的视觉外观和运动提示得出舞蹈节奏。然后,视觉节奏在时间上与音乐对应物对齐,这些音乐由声音强度的幅度提取。同时,我们利用对比度学习在音频和视觉流中隐含的节奏的隐式连贯性。该模型通过预测视听对之间的时间一致性来学习关节嵌入。音乐舞蹈表示以及检测音频和视觉节奏的能力,可以进一步应用于三个下游任务:(a)舞蹈分类,(b)音乐舞蹈检索,以及(c)音乐舞蹈重新定位。广泛的实验表明,我们提出的框架以大幅度优于其他自我监督方法。
translated by 谷歌翻译
通用事件边界检测(GEBD)任务旨在检测通用的,无分类的事件边界,将整个视频分为块。在本文中,我们应用蒙版的自动编码器来提高GEBD任务上的算法性能。我们的方法主要采用了对GEBD任务进行微调的蒙面自动编码器的合奏,并将其作为其他基本模型的自我监督的学习者。此外,我们还使用半监督的伪标签方法来充分利用训练时丰富的未标记动力学-400数据。此外,我们提出了一种软标签方法,以部分平衡正面和负样本,并减轻此任务中模棱两可的标记问题。最后,实施了一个棘手的分割对准策略,以完善我们的模型预测到更准确的位置的边界。通过我们的方法,我们在动力学-GEBD测试集上的F1得分上获得了85.94%的成绩,与2021 Kinetics-GEBD挑战的获胜者相比,F1得分提高了2.31%。我们的代码可从https://github.com/contentandmaterialportortait/mae-gebd获得。
translated by 谷歌翻译
基于对抗性学习的图像抑制方法,由于其出色的性能,已经在计算机视觉中进行了广泛的研究。但是,大多数现有方法对实际情况的质量功能有限,因为它们在相同场景的透明和合成的雾化图像上进行了培训。此外,它们在保留鲜艳的色彩和丰富的文本细节方面存在局限性。为了解决这些问题,我们开发了一个新颖的生成对抗网络,称为整体注意力融合对抗网络(HAAN),用于单个图像。 Haan由Fog2FogFogre块和FogFree2Fog块组成。在每个块中,有三个基于学习的模块,即雾除雾,颜色纹理恢复和雾合成,它们相互限制以生成高质量的图像。 Haan旨在通过学习雾图图像之间的整体通道空间特征相关性及其几个派生图像之间的整体通道空间特征相关性来利用纹理和结构信息的自相似性。此外,在雾合成模块中,我们利用大气散射模型来指导它,以通过新颖的天空分割网络专注于大气光优化来提高生成质量。关于合成和现实世界数据集的广泛实验表明,就定量准确性和主观的视觉质量而言,Haan的表现优于最先进的脱落方法。
translated by 谷歌翻译
前列腺成像报告和数据系统(PI-RAD)基于多参数MRI类\ ^ EES患者分为5类(PI-RADS 1-5),用于常规临床诊断指导。但是,无论pi-rads 3患者是否应该经过活组织检查,都没有共识。这些硬样品(HS)的采矿功能对于医生来说是有意义的,以实现准确的诊断。目前,HS Biomarkers的采矿是Insu \`的,并且HS Biomarkers用于前列腺癌诊断的e \'助力性和稳健性尚未探讨。在这项研究中,构建了来自DI \'EERENT数据分布的生物标志物。结果表明,HS Biomarkers可以在DI \'EERENT数据分布中实现更好的性能。
translated by 谷歌翻译
神经科学领域的研究揭示了情绪模式和脑功能区域之间的关系,展示了不同脑区之间的动态关系是影响通过脑电图(EEG)确定的情绪识别的必要因素。此外,在脑电情绪识别中,我们可以观察到,基于相同的脑电图数据,我们可以观察到粗粒情绪之间的粗粒情绪之间的边界;这表明大型粗糙和小细粒度情绪变化的同意。因此,来自粗糙到细粒度类别的渐进分类过程可能有助于EEG情绪识别。因此,在本研究中,我们提出了一种逐步的图表卷积网络(PGCN),用于捕获EEG情绪信号中的这种固有特性,并逐步学习鉴别性EEG特征。为了适应不同的EEG模式,我们构建了一个双图模块,以表征不同EEG通道之间的内在关系,其中包含神经科学研究的动态功能连接和脑区的静态空间接近信息。此外,通过观察粗糙和细粒度的情绪之间的关系,我们采用双头模块,使PGCN能够逐步了解更多辨别性EEG特征,从粗粒(简单)到细粒度的类别(困难),参考情绪的分层特征。为了验证我们模型的性能,在两个公共数据集中进行了广泛的实验:种子-46和多模态生理情绪数据库(MPED)。
translated by 谷歌翻译